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W roku 2011 wykryto oszustwo Diederika Stapela. Okazało się, że nie tylko Stapel fałszował dane, 
lecz także czasopisma nie dostrzegły wielu oczywistych błędów oraz zachęcały do przekłamań 
(np. pomijania badań z wynikami nieistotnymi). Równolegle ukazał się artykuł Simmonsa, Nelso- 
na i Simonsohna (2011) poświęcony wątpliwym praktykom badawczym, które mogą znacząco 
zwiększać odsetek wyników fałszywie pozytywnych poprzez arbitralne decyzje dotyczące analizy 
i prezentacji danych. Niedługo potem pojawiły się wyniki badań wskazujących na to, że znaczna 
część badaczy przyznaje się do stosowania takich praktyk oraz że są one powszechnie akceptowa- 
ne. Wydarzenia te zaowocowały szeroką dyskusją dotyczącą rzetelności danych w psychologii. 
Autor omawia najważniejsze punkty dyskusji, wskazując też, w jaki sposób niski stopień dojrza- 
łości teorii, brak konsensusu o do zasad stosowania technik badawczych i interpretowania wyni- 
ków oraz nierealistyczne wymagania redakcji czasopism empirycznych mogły się przyczynić do 
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STAPEL I KRYZYS PSYCHOLOGII AD 2014 


Choć dekretowanie „kryzysu” psychologii jest czymś regularnym i towarzy- 
szy nam od bardzo dawna (Asch, 1952/1987; Ring, 1967; Elms, 1975; Bevan, 
1991; Staats, 1999; Rozin, 2001; Rand i Ilardi, 2005), wydaje się, że ostatnie lata 
są szczególne. W relatywnie krótkim czasie ukazało się wiele tekstów poddają- 
cych w wątpliwość rzetelność typowych danych w psychologii (cały numer 6 
Perspectives on Psychological Science — vol. 7, 2012; Asendorf i in., 2013; Fer- 
guson, 2013; John, Loewenstein i Prelec, 2012; Kepes i McDaniel, 2013; LeBel 
i Peters, 2011; Masicambo i Lalande, 2012; Mitchell, 2012; Murayama, Pekrun 
i Fiedler, 2013; Simmons, Nelson, i Simonsohn, 2011; Simonsohn, 2013; Simon- 
sohn, Nelson i Simmons, 2014; Tressoldi, 2012; Wicherts, Bakker i Molenaar, 
2011; w literaturze polskiej: Brzeziński, 2012 oraz Klebaniuk, 2012). Specjalny 
numer Perspectives on Psychological Science zatytułowano Crisis of confidence 
(Pahsler i Wagenmakers, 2012), co można wymownie przetłumaczyć jako „kry- 
zys pewności”, ale też „kryzys zaufania”. 

Najważniejszym powodem ,,wzmozenia” jest wykrycie trwającego kilkana- 
Scie lat oszustwa Stapela (większość cytowanych wyżej artykułów je przywołu- 
je). Historia odbiła się szerokim echem wśród specjalistów (i nie tylko) i nie ma 
potrzeby przypominać tutaj szczegółów, które są szeroko opisane w innych miej- 
scach (Bhattacharjee, 2013; Klebaniuk, 2012; Levelt Committee, Noort Commit- 
tee, Drenth Committee, 2012; dalej: Levelt, 2012). Wystarczy tylko wspomnieć, 
że po dochodzeniu specjalnej komisji wycofano prawie 60 artykułów z okresu 
15 lat, opublikowanych w najbardziej uznanych psychologicznych czasopismach. 

Istotność historii Stapela nie polega na tym, że w psychologii znalazł się je- 
den oszust. Skoro są w innych dyscyplinach, trudno spodziewać się, żeby psy- 
chologia była w tym względzie jakaś szczególna. Problem w tym, że kilkadzie- 
siąt tekstów z przeszło dwoma setkami badań nie zostało zakwestionowanych ani 
na etapie peer-review, ani — przede wszystkim — poprzez mechanizm intersubiek- 
tywnej sprawdzalności (niezależne replikacje). To znacząco odróżnia aferę Sta- 
pela od innych oszustw naukowych, zwłaszcza w naukach przyrodniczych (por. 
Stroebe, Postmes i Spears, 2012), w których wykrycie oszustwa często było 
spowodowane niemożliwością powtórzeń eksperymentów. Fizycy byli świadka- 
mi afery podobnego kalibru. Jan Hendrik Schón, swego czasu młoda gwiazda 
fizyki materiałowej, publikował jeden artykuł co dwa tygodnie w czasopismach 
pokroju Science i Nature. Żadne laboratorium nie potrafiło uzyskać materiałów 
podobnej jakości jak rzekomo przez niego wytwarzane, przez co zaczęto uważ- 
nie przyglądać się jego badaniom. Od pierwszych publikacji eksperci potrzebo- 
wali niecałych dwóch lat, żeby wykryć systematyczne anomalie w danych i za- 
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kwestionować rzetelność jego pracy (Reich, 2009). Natomiast przed wyjściem na 
jaw oszustwa Stapela nie pojawiła się żadna systematyczna krytyka jego odkryć 
oraz nie ukazała się, według mojej najlepszej wiedzy, żadna nieudana replikacja 
jego badań. Sam Stapel „wpadł” z powodów, jak na skalę oszustwa, wysoce pro- 
zaicznych (np. chwalił się współpracownikowi udanymi wynikami, ale nie był 
w stanie pokazać danych surowych; Bhattacharjee, 2013). 

Samemu oszustwu daleko było do doskonałości. Dokonana post factum ana- 
liza danych statystycznych w artykułach wykazała szereg nieprawidłowości. 
Eksperci zwracali uwagę na takie nieprawdopodobne sytuacje, jak identyczne 
dane w niezależnych eksperymentach (np. średnie i odchylenia standardowe), 
niewystępowanie brakujących danych, bardzo niskie statystyki F wszędzie tam, 
gdzie nie spodziewano się istotnych efektów, zbyt silne efekty jak na skale 
o niskich rzetelnościach lub skale z jedną pozycją. Gdy analizowano dane suro- 
we, znajdywano mechanicznie przeklejone kolumny zmiennych. W zasadzie 
każdy zakwestionowany artykuł miał jakieś nieprawidłowości (Levelt, 2012, 
s. 69-100). Fabrykowanie danych nie jest, wbrew pozorom, łatwe. To, że najlep- 
sze czasopisma psychologiczne systematycznie przepuszczały takie dane, świad- 
czy o tym, że albo recenzenci nie mieli dostatecznych kompetencji (przede 
wszystkim statystycznych), albo też przygotowywali recenzje „po łebkach”. APA 
w standardowym ogłoszeniu o poszukiwaniu recenzentów informuje, że ,,recen- 
zowanie jest czasochłonne; potrzeba około 1-4 godzin na jeden manuskrypt” 
(można je znaleźć w bazie PsycARTICLES po wpisaniu zapytania ,,reviewers 
wanted”). Przyjmując nawet liczbę czterech godzin za wystarczającą, trudno nie 
postawić retorycznego pytania, czy rzeczywiście przez cztery godziny można 
przeczytać z dużą uwagą artykuł opisujący 3-6 badań, przeanalizować podstawy 
teoretyczne, sprawdzić cytowane źródła, zastanowić się nad sensownością pro- 
cedury i wykorzystanych narzędzi, nie mówiąc o skontrolowaniu danych suro- 
wych czy sprawdzeniu poprawności obliczeń (o napisaniu samej recenzji nie 
wspominając). Stawiałbym tezę, że przez taki czas recenzent może co najwyżej 
sprawdzić podstawowe standardy edytorskie, wytknąć oczywiste błędy i przed- 
stawić w recenzji własne poglądy na sprawę. 

Komitet powołany do zbadania afery nie obwinił tylko samego Stapela. Re- 
daktorzy i recenzenci czasopism chętnie bowiem przyjmowali bez zastrzeżeń 
(prawie) zawsze udane badania Stapela, ale również zachęcali go oraz współau- 
torów jego artykułów do przekłamań. Cytując raport: ,,[...] współautorzy [arty- 
kułów Stapela] przyznawali, że czasami redaktorzy i recenzenci prosili, żeby 
pewne zmienne były usunięte, ponieważ dzięki temu wyniki byłyby bardziej 
zgodne z rozumowaniem i tokiem narracji. Skutkowało to usuwaniem niepożą- 
danych rezultatów. Recenzenci również wymagali, aby nie wszystkie przepro- 
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wadzone analizy były opisywane, przykładowo poprzez niewspominanie «nie- 
wychodzących» hipotez, które początkowo były zakładane jako prawdziwe. Cza- 
sami recenzenci nalegali na przeprowadzenie dodatkowych badań «pilotażo- 
wych», które były potem raportowane jako przeprowadzone przed właściwym 
badaniem. W ten sposób procedura badań oraz wybór bodźców były uzasadnione 
rzekomo wcześniejszą wiedzą [...]” (Levelt, 2012, s. 53). 

Stapel pokazał, że inteligentna osoba jest w stanie łatwiej publikować i robić 
karierę za pomocą ,,gtadkich” wyników, podpartych atrakcyjną narracją, niż da- 
nych zebranych rzetelnie, które najprawdopodobniej byłyby bardziej niejedno- 
znaczne i mniej efektowne. Jednak oszustwo Stapela może wskazywać na dużo 
bardziej fundamentalny problem, a mianowicie na to, że w psychologii znaczna 
część odkryć jest ze sobą słabo powiązana teoretycznie, ma miejsce bardziej 
„zbieractwo” faktów niż budowanie dobrze zintegrowanego systemu wiedzy. 
Nowe odkrycia trudno umieścić na tle szerszego krajobrazu teoretycznego, gdyż 
albo go nie ma, albo (zapewne częściej) jest zbyt ogólny, aby jednoznacznie 
stwierdzić, jakie powinny być wyniki badań. W jednym ze swoich sfałszowa- 
nych badań Stapel „pokazał”, że w bardziej chaotycznym środowisku (np. zanie- 
czyszczonym Śmieciami) ludzie w większym stopniu dyskryminują mniejszości 
(np. siadają dalej od takich osób na publicznej ławce; Stapel i Lindenberg, 2011). 
Ta i inne jego hipotezy nie wydają się w żaden sposób szczególne. Są to badania, 
jakich mnóstwo w literaturze. Nie opisują jakichś przełomowych lub sensacyj- 
nych odkryć, zwłaszcza takich, które byłyby sprzeczne z dotychczasową wiedzą 
(tak jak Bem, 2011 w swoim artykule o prekognicji). Trudno też wskazać jakieś 
(meta)teorie psychologiczne, z którymi byłyby niezgodne. Natomiast można 
(Stapel to zrobił) dorobić do nich sensownie brzmiące uzasadnienie teoretyczne 
i dodać sporo źródeł ukazujących podobne efekty. Efekty, choć przekonujące, nie 
są jakieś szczególnie silne (sam Stapel zwracał uwagę na to, żeby sfabrykowane 
efekty nie były bardzo mocne, gdyż będą mało przekonujące dla redaktorów, por. 
Bhattacharjee, 2013). 

Oszustwo na taką skalę jest czymś niezwykle rzadkim nawet w naukach 
przyrodniczych (por. Stroebe i in., 2012). W psychologii jest tym bardziej szcze- 
gólne, gdyż oszustwa są tu wykrywane rzadko. Zasadnicze pytanie brzmi, czy 
Stapel był „czarną owcą” (jak sugeruje organizacja psychologów społecznych 
European Association of Social Psychology, 2012), czy może przykładem zjawi- 
ska wcale nierzadkiego w psychologii. Definitywnej odpowiedzi nie ma, przypa- 
dek Stapela pokazuje jednak, że wskazany jest niepokój co do możliwości spo- 
łeczności naukowej w wykrywaniu takich oszustw. Jednak fałszerstwo polegają- 
ce na tworzeniu nieistniejących danych to niejedyny problem, który może po- 
ważnie zniekształcać obraz rzeczywistości w nauce. W dyskusjach wokół stanu 
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psychologii pojawiają się głosy, że wcale niemały odsetek badaczy może prze- 
kłamywać rzeczywistość w dużo bardziej subtelny sposób. 


SUBTELNIEJSZE PRZEKŁAMANIA, 
CZYLI PSYCHOLOGIA FAŁSZYWIE POZYTYWNA 


W mniej więcej tym samym czasie, gdy wybuchła afera Stapela, ukazał się 
artykuł Simmonsa i współautorów (2011) o „psychologii fałszywie pozytywnej” 
(gra słów z połączenia „błędu fałszywie pozytywnego” i „psychologii pozytyw- 
nej”; ang. false-positive psychology). Tekst zdobył sporą popularność (ponad 800 
cytowań w Google Scholar; stan na kwiecień 2015) i spekulowałbym, że afera 
Stapela wydatnie się do tego przyczyniła. Nie omawia on zasadniczo nowych 
idei (np. Maxwell, 2004; Ioannidis, 2005), jednak jest standardowo cytowany 
przy okazji najnowszych dyskusji dotyczących „kryzysu”. 

Artykuł ma dwie części: „empiryczną” i matematyczną. W części „empi- 
rycznej” przedstawiono sprawozdanie z rzeczywistego badania. Wybiórczo ra- 
portujac dane, „„dowiedziono” występowania absurdalnych efektów, np. słucha- 
nie piosenki When I'm 64 zespołu „The Beatles” zmniejsza wiek osób badanych. 
W części matematycznej wygenerowano losowe rozkłady danych, mające symu- 
lować rzeczywiste badania. Zastosowano jedną z czterech praktyk „podkręcania” 
danych, żeby sprawdzić, w jaki sposób zwiększą prawdopodobieństwo wyniku 
istotnego. Te praktyki to: 

1. Używanie wielu zmiennych zależnych i raportowanie tylko tej, która 
„wyszła”. 

2. Dodawanie kolejnej grupy badanych tak długo, aż nie osiągnie się istotno- 
ści statystycznej (i, oczywiście, zaprzestawanie badań, gdy tylko istotność zosta- 
nie osiągnięta). 

3. Uwzględnianie jakiejś zmiennej dwuwartościowej jako dodatkowej 
współzmiennej (np. płci). 

4. Wykonywanie eksperymentu z więcej niż dwoma grupami eksperymental- 
nymi i wybiórcze raportowanie tylko tych, między którymi wykryto istotne różnice. 

Stosowanie wymienionych praktyk zwiększa około dwukrotnie prawdopo- 
dobieństwo popełnienia błędu fałszywie pozytywnego z „tradycyjnych” 5%, 
jednak stosowanie wszystkich czterech metod powoduje, że istnieje aż 61% 
szans na znalezienie jakiegoś istotnego efektu w zupełnie losowych danych. 

Fakt, że teoretycznie jest możliwe stosowanie takich sztuczek, nie mówi nam 
nic na temat tego, jak bardzo jest to rozpowszechnione. Dlatego próbę empirycz- 
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nego oszacowania rozpowszechnienia wyzej wymienionych watpliwych praktyk 
badawczych przeprowadzili John i współautorzy (2012). Zaproszenie do badania 
wysłano do 6 tys. psychologów, pracowników naukowych amerykańskich uczel- 
ni. Badanym zapewniono anonimowość i motywowano do mówienia prawdy 
(wskazywali organizacje pożytku publicznego, na których konto dokonywano 
przelewów). Ostatecznie nieco ponad 2100 osób wzięło w nich udział. Badacze 
pytali o to, czy osoba kiedykolwiek realizowała jedną z wymienionych w Ta- 
beli 1 wątpliwych praktyk. Dodatkowo ankietowani badacze szacowali rozpo- 
wszechnienie tych praktyk wśród innych badaczy oraz oceniali, jaka część bada- 
czy przyznałaby się do wątpliwych praktyk i zestawiając te wartości, szacowano 
rzeczywiste rozpowszechnienie praktyk. Badani byli motywowani do mówienia 
prawdy (autorzy wpłacali pewną kwotę na wybraną organizację dobroczynną). 
Pytano także o dopuszczalność poszczególnych praktyk w 3-stopniowej skali. 
Wyniki przedstawiłem w Tabeli 1. 

W przypadku niektórych kategorii ponad 50% badanych przyznaje się do 
praktyk, które prowadzą do zawyżonej liczby wyników fałszywych pozytyw- 
nych. Oszacowano, że odsetek badaczy stosujących analizowane przez Simmon- 
sa i współautorzy (2011) praktyki, takie jak nieraportowanie zmiennych zależ- 
nych, dokładanie osób do celek aż do skutku i wybieranie tylko „działających” 
porównań między grupami, wynosi odpowiednio 78%, 72% i 42%. Jednym 
z najbardziej pesymistycznych wniosków jest, że wszystkie wątpliwe praktyki 
badawcze (poza fałszowaniem danych) nie są postrzegane jako coś złego, ale są 
oceniane jako „dopuszczalne” (rzadziej jako „raczej dopuszczalne”). W przy- 
szłych badaniach byłoby interesujące rozstrzygnąć, czy wynika to z niskiej świa- 
domości metodologicznej, czy też raczej z cynicznego pragmatyzmu. Można też 
zasadnie zakładać, że jakiś odsetek nieuczciwych badaczy nie przyzna się do 
stosowania takich praktyk lub w ogóle nie przystąpi do ankiety (nie wzięło 
w niej udziału ponad 60% zaproszonych). 

Wyniki Johna, Lowensteina i współautorów wskazują, że „psychologia fał- 
szywie pozytywna”, przed którą ostrzegają Simmons i współautorzy (2011), 
może mieć miejsce, i nie jest tylko matematyczną ciekawostką. Idąc krok dalej, 
Bakker, van Dijk i Wicherts (2012) symulowali badania nad efektami o założonej 
sile i zestawiali je w „metaanalizy”. Najlepszą strategią pod kątem uzyskania 
publikowalnych (istotnych statystycznie) wyników było przeprowadzanie wielu 
niedużych badań z zastosowaniem wątpliwych praktyk badawczych. Takie prak- 
tyki najbardziej też wypaczały obraz rzeczywistości. Biorąc pod uwagę, że stan- 
dardowa wielkość badania psychologicznego to około 40 osób (Tressoldi, 2012; 
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Marszalek, Barber, Kohlhart i Holmes, 2011), wydaje się, że taka strategia jest 
nierzadko stosowana (por. też Francis, 2014). 


Tabela 1 
Szacowane przez Średnia ocena 
Procent bada- ankietowanych Rozpowszech- dopuszczalno- 
nych, którzy badaczy rozpo- nienie danej ści danej 
Wątpliwa praktyka badawcza przyznali się wszechnienie praktyki praktyki 
do stosowania danej praktyki wg autorów (w nawiasie 
danej praktyki w społeczności badania odchylenia 
naukowej standardowe) 
1. Nieraportowanie wszystkich 66,5% 60% 78% 1.84 (0,39) 
wykorzystanych zmiennych 
2. Zbieranie dodatkowych danych po 
sprawdzeniu, czy już posiadane dane 58,0% 62% 72% 1,79 (0,44) 
sq istotne 
3. Wybiórcze raportowanie tylko 
tych warunków eksperymentalnych, 27,4% 38% 42%, 1,77 (0,49) 
pomiędzy którymi zanotowano 
istotne różnice 
4. Rezygnacja ze zbierania danych 
wcześniej niż zaplanowano, ze 22,5% 41% 36% 1,76 (0,48) 


względu na znalezienie oczekiwa- 
nych wyników 


5. Nieuprawnione zaokrąglanie 
wartości p (np. raportowanie warto- 23,3% 41% 39% 1,68 (0,57) 
ści p = 0,054 jako p < 0,05) 


6. Selektywne raportowanie tylko 


0, 0, 0, 
ieh badañ. które ayes 50,0% 61% 67% 1,66 (0,53) 


7. Decydowanie o tym, czy wyklu- 
czyć określone dane po sprawdzeniu 43,4% 45% 62% 1,61 (0,59) 


wpływu takiej operacji na rezultaty 


8. Opisywanie nieoczekiwanego 
wcześniej odkrycia jako przewidzia- 27,0% 50% 54% 1,50 (0,60) 
nego od samego początku 


9. Twierdzenie, że na wyniki nie 
mają wpływu zmienne demograficz- 


Nooo 4,5% 22% 13% 1,32 (0,60) 
ne, podczas gdy w rzeczywistości 
nie wiadomo lub mają wpływ 
10. Fałszowanie (fabrykowanie) 1,7% 10% 9%, 0,16 (0,38) 


danych 


Źródło: dane zawarte w John i współautorzy (2012). Uwagi. W kolumnie 1 przedstawiono wyniki grupy, która 
była dodatkowo motywowana do mówienia prawdy. Wyniki grupy kontrolnej były zwykle kilka procent niższe 
(tj. niższe o 0-7%). Wartość w kolumnie 2 szacunkowo na podstawie wysokości słupka wykresu (brak dokład- 
nych danych surowych w artykule). Odsetek w kolumnie 3 jest to oszacowanie rozpowszechnienia danej prakty- 
ki przez autorów badania na podstawie odsetka przyznających się i ocenianego przez badanych odsetka osób, 
które przyznałyby się. Użyta w kolumnie 4 skala: 0 — całkowicie niedopuszczalne; 1 — w pewnym stopniu do- 
puszczalne; 2 — dopuszczalne. 
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Wydaje się, że w psychologii złożoność przedmiotu badania, niski stopień 
konsensusu co do sposobu mierzenia zmiennych psychologicznych i płynność 
założeń teoretycznych ułatwiają badaczom podejmowanie arbitralnych decyzji 
przy analizie i prezentacji danych. Aby lepiej zilustrować ten problem, podam 
przykład hipotetycznego badania zaczerpnięty od Gelmana i Lokena (2013) 
i twórczo przeze mnie rozwinięty. Badanie to dotyczy różnic w rozwiązywaniu 
problemów matematycznych między zwolennikami demokratów i republikanów 
w Stanach Zjednoczonych. Badacz zakłada, że różnice występują w zależności 
od kontekstu, w jaki „ubierze sie” problem: demokraci lepiej poradzą sobie 
z problemem, który dotyczy opieki zdrowotnej, a republikanie lepiej z matema- 
tycznie analogicznym problemem, ale „ubranym” w kontekst działań militar- 
nych. Badacz zbiera też szereg dodatkowych danych demograficznych. Załóżmy, 
iż okazuje się, że efekt ten występuje tylko u mężczyzn. Można to łatwo wytłu- 
maczyć, wszak mężczyźni mają silniejsze przekonania ideologiczne (tu hipote- 
tyczny badacz może przywołać szereg danych). A co jeśli różnice dotyczą tylko 
kobiet? Badacz też stworzy do tego bogate uzasadnienie wskazując na to, że 
kobiety są bardziej wrażliwe na kontekst (i wzmocni to szeregiem źródeł). Idąc 
dalej, wiemy, że badacz pytał o sympatie partyjne na skali 1-7. Powstaje kolejne 
pytanie, kogo ma porównywać? Osoby, które zaznaczyły 1-3, z osobami 5-7? 
Może lepiej 3 i 5 odrzucić jako osoby bliskie neutralności? A może porównywać 
ideologiczne „jedynki” i „siódemki? Co zrobić z osobami neutralnymi? Wyłą- 
czyć je, a może kluczowe porównania wskażą na różnice między osobami zaan- 
gażowanymi politycznie a neutralnymi? Może żadna analiza nie da istotnego 
efektu, ale jeśli „wrzucimy” wiek do modelu, to okaże się, że występuje istotna 
interakcja, do której można dorobić dalszą historię (np. młodsi są bardziej skrajni 
w swoich postawach politycznych vs młodsi mają mniej skrystalizowane i bar- 
dziej zmienne poglądy). Po drodze nasz hipotetyczny badacz może jeszcze pod- 
jąć nieskończoną liczbę innych arbitralnych decyzji, jeśli uzna, że dają istotne 
efekty. 

Na dowolnym dużym zbiorze danych surowych można wykonać ogromną 
liczbę analiz, z których jakaś część będzie istotna statystycznie przez sam przy- 
padek. Dodatkowo do każdego wyniku jesteśmy w stanie stworzyć lepsze lub 
gorsze uzasadnienie (czy mówiąc dosadnie — „historyjkę”) i z nieprzebranej lite- 
ratury znaleźć jakieś źródło, które ją wspiera. Artykuły Stapela zawierają dzie- 
siątki cytowań uzasadniających hipotezy do jego badań, choć wiemy, że żadnych 
badań nie było. Już po poznaniu wyników badacz może je przedstawić jako 
przewidziane od samego początku przez swoje „teorie”, i w ten sposób nadać 
tym teoriom rzekomej, ale nieuprawnionej skuteczności w generowaniu empi- 
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rycznie sprawdzonych przewidywań. Niestety, jest to praktyka wcale nierzadka 
(Kerr, 1998). 

Gelman i Loken (2013) analizują kilka przykładów rzeczywistych badań, 
wskazując na trudną do wytłumaczenia arbitralność niektórych decyzji. Tutaj 
pozwolę sobie przedstawić inne badanie, które budzi moje wątpliwości z tego 
samego względu. Gervais i Norenzayan (2012) przedstawili badania wskazujące 
na to, że analityczne myślenie jest predyktorem braku wiary religijnej. W czte- 
rech eksperymentach manipulacja polegała m.in. na oglądaniu rzeźby myślącego 
filozofa (lub w grupie kontrolnej — rzeźby atlety), prymowaniu słowami związa- 
nymi z analitycznym myśleniem lub neutralnymi, zmuszaniu do czytania słów 
z niewyraźną czcionką i wyraźną itp. W każdym z badań uzyskano wyniki wska- 
zujące na związek „analitycznego myślenia” (Ściślej: manipulacji wzbudzającej 
rzekomo takie myślenie) z brakiem wiary. Wątpliwości budzi jedna rzecz: 
w poszczególnych badaniach eksperymentalnych używano innych zmiennych 
zależnych. I tak w pierwszym eksperymencie badani określali poziom wiary 
w Boga na skali od 0 do 100; w drugim odpowiadali na pytania dotyczące ich 
wiary w Boga, anioły i diabła, każde na skali od | do 7; a w kolejnym ustosun- 
kowywali się do 10 pytań na temat ich religijności (każde w skali od 1 do 7; np. 
„Moje przekonania religijne są tym, co naprawdę leży u podstaw mojej filozofii 
życiowej”). Jednak nawet w tej niekonsekwencji badacze byli niekonsekwentni, 
gdyż w ostatnim badaniu wrócono do zmiennej zależnej „wiara w Boga w skali 
0-100”. Autorzy nie uzasadnili, dlaczego używali różnych zmiennych zależnych 
w każdym badaniu. O ile różnorodne procedury eksperymentalne są jeszcze ja- 
koś zrozumiałe, o tyle różnorodne zmienne zależne utrudniają rzetelną interpre- 
tację wyników, ponieważ można się zastanawiać, czy poszczególne zmienne 
zależne mierzą dokładnie to samo. Przypuszczam intuicyjnie, że miary te praw- 
dopodobnie mierzą coś bardzo zbliżonego, tym niemniej ich arbitralne stosowa- 
nie może wskazywać na to, że każdorazowo używano kilku zmiennych zależ- 
nych i przytoczono tylko te, w przypadku których uzyskano istotne zależności 
(lub były różne kombinacje manipulacji i zmiennej zależnej i przedstawiono 
tylko działające). Na wybiórcze raportowanie badań wskazuje bardzo wysoka 
negatywna korelacja między siłą efektu a wielkością próby. W czterech bada- 
niach eksperymentalnych korelacja ta wynosi: r = -0,97. Matematycznie patrząc, 
sama wielkość próby nie ma związku ze średnią wielkością efektu. Ma jednak 
związek z wariancją efektów (por. Lippa, 2009), tj. w przypadku mniejszych 
prób efekty będą bardziej zróżnicowane. Przy mniejszych próbach siłą rzeczy 
tylko efekty silniejsze „załapią” się na istotność. Tak wysoka korelacja pomiędzy 
siłą efektu a wielkością próby może być wynikiem przypadku, ale może też 
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wskazywać na to, że istniały dodatkowe badania, o których badacze nie wspo- 
mnieli (por. szczególnie Francis, 2012). W podobnym duchu Fergusson (2013) 
pokazał, jak naukowcy, badający wpływ gier komputerowych na agresję, używa- 
jąc zbliżonej procedury rażenia innych białym szumem, wyciągali z niej różne 
wskaźniki, zapewne w zależności od tego, które przynosiły istotne zależności 
(np. liczba sesji, w których badani zaaplikowali najgłośniejsze szumy, pierwia- 
stek kwadratowy z długości szumów, pomnożony przez intensywność, sumy 
intensywności albo Średnie z intensywności i długości osobno itp.). 

Zarówno fabrykacja, jak i wybiórcza prezentacja wyników („psychologia 
fałszywie pozytywna”) są rodzajami nierzetelności, moim zdaniem w praktycz- 
nych skutkach niewiele się różniącymi. W jednym i drugim przypadku społecz- 
ność badaczy dostaje zniekształcony obraz rzeczywistości, otrzymuje informacje 
tylko o udanych badaniach, wskazujących na rzekomą łatwość uzyskania efektu, 
nie może wyliczyć rzeczywistej siły efektów, a nieopublikowane dane mogą 
zawierać informacje o jakichś ważnych moderatach niwelujących efekt. Postawię 
tezę, że o ile zarówno badacze, jak i redaktorzy czasopism zdają sobie sprawę 
z niegodziwości fałszerstwa, o tyle wybiórcze publikowanie jest rodzajem strate- 
gii wynikającej częściowo ze statystycznej niewiedzy (zob. akceptacja w bada- 
niach John i in., 2012) oraz niepisanej umowy między redakcjami i badaczami, 
która zakłada, że atrakcyjność manuskryptu jest warunkiem nie mniej ważnym 
niż rzetelność. Publikowane będą więc tylko dane wspierające hipotezy, co istot- 
nie spotykamy w czasopismach empirycznych. Według analizy bibliometrycznej 
Fanelliego (2010) psychologia wespół z psychiatrią jest nauką z największą 
liczbą artykułów, w których pozytywnie zweryfikowano wyjściową hipotezę. 
Nie wydaje się, żeby teorie psychologiczne były tak wysoce wyrafinowane, 
a narzędzia precyzyjne, aby psycholodzy lepiej przewidywali rzeczywistość niż 
przyrodnicy. 

Pojawiło się w ostatnim czasie też wiele innych sygnałów świadczących 
o tym, że rzetelność danych w psychologii daleka jest od doskonałości. Szcze- 
gólnie wymowne są analizy wskazujące na: niską moc badań psychologicznych 
(Bakker i in., 2012; Francis, 2012, 2014; Olechowski, 2012; Tressoldi, 2012), co 
przy niewielkiej liczbie publikowanych wyników negatywnych (Fanelli, 2010) 
wskazuje na mocno wybiórcze publikowanie (publication bias); rozkład wartości 
p w literaturze, zwłaszcza nieprawdopodobny wzrost częstości tych wartości 
nieco poniżej 0,05 (Masicampo i Lalande, 2012; Leggett, Thomas, Loetscher 
i Nicholls, 2013; Simonsohn i in., 2014); nieprawidłowości przy raportowaniu 
wartości p, szczególnie poprzez klasyfikowanie wartości nieistotnych jako istot- 
ne (Bakker i Wicherts, 2011; Wicherts i in., 2011); niewielkiej liczby replikacji, 
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zwłaszcza dokładnych (Makel, Plucker i Hegarty, 2012); niedzielenia się danymi 
surowymi (Mitchell, 2012; Wicherts, Borsboom, Kats i Molenaar, 2006). 


UWAGI KOŃCOWE 


Efektem „kryzysu” są szerokie dyskusje nad koniecznością zmian w prakty- 
kach badawczych i publikacyjnych w psychologii. Niektóre postulaty mają cha- 
rakter bardziej techniczny, inne zakładają fundamentalną zmianę podejścia do 
uprawiania nauki. Wśród tych pierwszych znajduje się postulat obowiązkowej 
publikacji danych surowych (Wicherts, Bakker, 2012; Simmonsohn, 2013), co 
mogłoby ułatwić wykrywanie nietypowych wzorów danych (jak już wspomina- 
łem, w tekstach Stapela wykryto bardzo wiele błędów). Analiza danych pozwoli- 
ła Uri Simmonsohnowi (2013) wykryć kolejne dwa przypadki fabrykacji danych 
przez psychologów społecznych (konkretnie przez Lawrence'a Sanna i Dirka 
Smeestersa). W innej niedawnej historii statystycy wskazali skrajnie niskie 
prawdopodobieństwo danych uzyskanych przez Jensa Fórstera (Kolfshooten, 
2014). Łatwość dostępu do danych surowych może sprzyjać wykrywaniu 
oszustw, choć oczywiście nie uniemożliwi ich całkowicie. Inny postulat to obo- 
wiązkowa prejestracja badań w celu ograniczenia możliwości „twórczego” wy- 
ciągania prawidłowości z ogromu danych (Aveyard i in., 2013). Ten postulat nie 
powinien być trudny do zrealizowania, gdyż badania przed wykonaniem są zwy- 
kle zgłaszane do komisji etycznych, dodatkowa rejestracja ich w dedykowanych 
portalach nie wydaje się dużym wysiłkiem. Inny pomysł na ograniczenie ,,psy- 
chologii fałszywie pozytywnej” to obowiązkowa deklaracja przez autorów, czy 
przedstawili w raporcie wszystkie zmienne, warunki, sposoby ustalania wielko- 
Ści próby oraz usuwania przypadków odstających (Simmons i in., 2012). 

Istnieją wreszcie postulaty, które zakładają bardziej fundamentalne reformy. 
Czasopisma są otwarte przede wszystkim na wyniki pozytywne, natomiast nawet 
najlepsze badania z nieistotnymi wynikami zwykle mają drogę zamkniętą do 
publikacji. Jeśli badanie nie przynosi oczekiwanych rezultatów (jak to się na 
ogół dzieje w nauce) badacze mają do wyboru zmarnowanie kilku miesięcy pra- 
cy (a zatem mniejsze szanse na etat, awans itd.) albo dokonanie mniejszych 
i większych przekłamań (ewentualnie, jeśli przeprowadzili kilka eksperymentów, 
z których część tylko przyniosła oczekiwane wyniki, mogą pominąć te nieudane 
dla zwiększenia atrakcyjności narracji). Kluczowa wydaje się zatem zmiana sys- 
temu zachęt, tak żeby promować dobre badania, niezależnie od wyników (Nosek 
i Bar-Anan, 2012). Ciekawe rozwiązanie zaproponowało czasopismo Cortex, 
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które zadeklarowało otwarcie sekcji prejestrowanych badań (Chambers, 2013). 
Autorzy mają wysyłać artykuły z sekcją wstępną oraz metodą. Recenzenci mają 
ocenić, czy postawione pytanie badawcze jest ważne, a badanie sensownie za- 
projektowane. W przypadku pozytywnej decyzji autor dopiero wtedy robi bada- 
nie, a czasopismo zobowiązuje się wydrukować artykuł niezależnie od wyników. 
W ten sposób autorzy mogą potencjalnie zmniejszyć ryzyko straty czasu 
i zasobów na „niepublikowalne” badania. Jeśli natomiast dane są już zebrane, 
zaproponowano, aby część recenzentów oceniała teksty bez znajomości wyni- 
ków (result blind review; Greve, Bróder i Erdfelder, 2013), a ewentualne roz- 
bieżności mogłyby być dla redaktorów wskazówką, że dobre badanie traci przez 
negatywne wyniki (lub wątpliwe badanie zyskuje na wynikach pozytywnych). 
Ostatecznym kryterium oceny danych w nauce jest oczywiście możliwość ich 
niezależnego potwierdzenia, dlatego duża część głosów dotyczy zwiększenia roli 
replikacji dokładnych w psychologii (Asendorpf i in., 2013; Nosek, Spies i Mo- 
tyl, 2012; Francis, 2012). 

Te propozycje nie wymagają dużych nakładów finansowych. Wymagają jed- 
nak przełamania zwyczajów i nawyków obecnych w dyscyplinie od dziesiątków 
lat. Większość najważniejszych graczy nie podjęła jeszcze decyzji o zasadniczej 
zmianie reguł gry. Czasopisma, takie jak Journal of Personality and Social Psy- 
chology czy Journal of Experimental Psychology, które najbardziej ucierpiały na 
oszustwie Stapela, powinny być najbardziej zainteresowane zmianami. Zbyt wie- 
le nieprawidłowości zostało wykazanych w ostatnich latach i wydaje się, że prę- 
dzej czy później praktyki badawcze i publikacyjne będą musiały ulec zmianie. 

Zaryzykuję na koniec tezę, że praźródłem obecnego kryzysu jest pogoń za 
„nowatorskością”. Powoduje to skakanie od hipotezy do hipotezy bez dogłębne- 
go zrozumienia jednego efektu i uzyskania na jego temat maksymalnie pewnej 
wiedzy (na tyle, na ile jest to możliwe w nauce takiej, jak psychologia). Najlep- 
sze czasopisma wymagają „odkrywczych” badań, i podobne wymagania stawiają 
instytucje przyznające granty (oto przykład z naszego podwórka: o programie 
Maestro na stronie NCN przeczytamy: „jest to konkurs na finansowanie projek- 
tów badawczych mających na celu realizację pionierskich badań naukowych, [...] 
wykraczających poza dotychczasowy stan wiedzy”). Duże, nawet najlepiej po- 
myślane badanie mające skontrolować poprawność innych badań nie dostanie 
zatem grantu. Sygnał jest jasny: wybitny naukowiec nie angażuje się w replika- 
cje dokładne, w najlepszym wypadku może powtórzyć badanie, twórczo je mo- 
dyfikując (tzw. replikacje konceptualne). Jednak sama replikacja konceptualna 
zasadniczo niewiele mówi o oryginalnym efekcie, w szczególności nie wiadomo, 
czy niemożność powtórzenia wynika z niewystępowania efektu, czy z wprowa- 
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dzonych modyfikacji. Koniec końców, odkrycia się kumulują, nie mamy nieza- 
wodnych kryteriów odróżniania prawdziwych od fałszywych, a ze względów 
tylko logistycznych nie będzie nigdy możliwe zreplikowanie wszystkich badań 
(Makel i in., 2012). Jakaś część przekłamań, wynikających z arbitralnych decy- 
zji, fałszerstw albo nieuświadamianych błędów, nie zostanie nigdy skorygowana. 
Nie będąc chemikami ani fizykami, nie mamy możliwości uzyskiwania łatwo 
powtarzalnych i w miarę teoretycznie zrozumiałych wyników (choć i oni nie 
zawsze mają takie możliwości). Nierealistyczne jest założenie, że w takiej nauce, 
jak psychologia kilka badań pod rząd musi zawsze pokazywać ten sam efekt 
(zwłaszcza jeśli efekt ten jest słaby, co też kłóci się z elementarnym rachunkiem 
prawdopodobieństwa; Francis, 2012, 2014). Podobnie nierealistyczne jest zało- 
żenie, że czasopisma będą wypełnione od pierwszej do ostatniej strony ,,odkry- 
ciami”. Sam cenię artykuły opisujące nowe idee, które zwiększają nasze rozu- 
mienie rzeczywistości i przełamują stare schematy. Ale nauka taka jak psycholo- 
gia w równie dużym stopniu musi się opierać na żmudnej, mało kreatywnej pra- 
cy polegającej na sprawdzaniu prawdziwości wiedzy wypracowanej przez in- 
nych. Nie sądzę, że psychologia straciłaby, gdyby obok nowatorskich, eksplora- 
cyjnych i względnie niedużych badań na łamach czasopism były też promowane 
teksty z odtwórczymi badaniami, ale o bardzo dużej mocy i zrobionymi w spo- 
sób maksymalnie rzetelny. 
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